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Отбор переменных в логистическую 
регрессию генетическим алгоритмом 


В статье исследуются эффективные процедуры отбора переменных в бинарные классифицирующие 
модели на основе логистической регрессии. Для этого используется генетический алгоритм, причем в 
функцию фитнеса особи параметр штрафа за включение в модель новых переменных изменяется в 
зависимости от рассчитанного значения площади под КОС-кривой. Проведены эксперименты на 
модельных наборах данных и в задаче кредитного скоринга. 


Введение 


В ряде прикладных областей, таких, как медицина и кредитный скоринг, логисти- 
ческая регрессия [1] неизменно остается популярным средством для построения 
бинарных классифицирующих моделей, даже несмотря на появление в последние 
два десяти-летия эффективных алгоритмов машинного обучения. Причины этого лежат в 
том, что математический аппарат логистической регрессии хорошо изучен, коэффициенты 
регрессии поддаются интерпретации, а при помощи АОС-анализа можно подобрать точку 
отсечения (сиЁ-оф уме) так, чтобы модель обеспечивала заданный уровень чувст- 
вительности. Последнее особенно важно в медицинском скрининге, в котором нужно 
добиваться высокой (более 90 %) чувствительности диагностического теста. 

В последние годы бурный рост розничного кредитования в банковском секторе в 
России и странах бывшего СНГ заставил банки применять эффективные методики оцен- 
ки заемщиков, или скоринг. Основным математическим средством для построения так 
называемых скоринговых карт по-прежнему остается логистическая регрессия, хотя 
накоплен значительный мировой опыт использования для этих целей деревьев класси- 
фикации и искусственных нейронных сетей [2]. Как и задача медицинской диагностики, 
прогнозирование кредитоспособности заемщика на основе накопленных статистических 
данных — кредитных историй — сводится к задаче бинарной классификации. Типичной 
является ситуация, когда приходится иметь дело с десятками переменных, и, соответ- 
ственно, производить их отбор для построения модели. Включение в модель регрессии 
шумового признака, никак не связанного с восстанавливаемой зависимостью, может 
только ухудшить обобщающую способность модели. Выбор оптимального набора пере- 
менных путем перебора всех комбинаций приводит к МР-полной задаче. Поэтому на 
практике получили распространение статистические процедуры пошагового отбора пере- 
менных, которые позволяют снизить количество вычислений, но не обеспечивают нахож- 
дения оптимального набора входных переменных ввиду «жадных» стратегий. Поэтому 
представляется актуальной разработка «нежадных» методов отбора, основанных на слу- 
чайном направленном поиске. 

В работе [3] уже была предпринята попытка адаптации простого генетического 
алгоритма к отбору переменных в бинарную логистическую регрессию, которая прове- 
рялась на задаче предсказания инфаркта миокарда по набору из 43 симптомов больного. 
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Результаты экспериментов показали превосходство генетического алгоритма над тради- 
ционными статистическими процедурами, однако введенный авторами параметр в функ- 
цию приспособленности подобран эмпирически для конкретной обучающей выборки. 
В данной работе продолжается исследование проблемы эволюционного отбора перемен- 
ных в логистическую регрессию, предлагается модифицированная функция приспособ- 
ленности и проводится тестирование на синтетических наборах данных, в том числе из 
ОС Тгуте Масйте Геагттз Керозйоту, а также на реальных кредитных историях. 


Анализ «жадных» стратегий отбора 


На практике при отборе переменных в регрессионную модель приходится реа- 
лизовывать два противоречивых требования: 

— нужно использовать как можно больше входных переменных, содержащих новую 
информацию о выходной переменной; 

— поскольку каждая новая переменная может ухудшить обобщающую способность моде- 
ли, нужно стремиться, чтобы модель содержала как можно меньше входных переменных. 

Поиск наилучшей регрессионной модели, как правило, заключается в поиске 
компромисса между данными требованиями. Прикладная статистика предлагает две 
основные процедуры для отбора переменных: метод прямого выбора (англ.: югиага 
5@еспоп) и метод обратного исключения (англ.: БаскуатА ейттайоп). Для анализа 
недостатков рассмотрим их подробнее [1]. 

Процедура /огиага начинается с «пустой» модели, в которую еще не включена 
ни одна переменная. Она содержит следующие шаги. 

1. Для первой переменной, вводимой в модель, основным критерием выбора 
является высокая корреляция с выходной переменной. Если полученная в результате 
модель не обладает достаточной значимостью, из этого следует, что среди доступ- 
ных переменных исходной выборки значимые переменные отсутствуют. В против- 
ном случае переходят к шагу 2. 

2. Для каждой из остальных переменных вычисляется последовательная Ё-ста- 
тистика для данной переменной и переменных, уже включенных в модель. При этом 
каждый раз выбирается та переменная, для которой значение последовательной Ё-ста- 
тистики будет наибольшим (обозначим ее Ё„,). 


3. Для значения РЁ, проводится тест значимости. Если модель после добавле- 


пах 
ния переменной, выбранной на шаге 2, не обладает достаточной значимостью, то 
алгоритм останавливается и текущая модель остается без переменной, выбранной на 
шаге 2. В противном случае изменение модели принимается и осуществляется пере- 
ход на шаг 2 для выбора следующей переменной. 

Процесс продолжается до тех пор, пока все значимые переменные не будут 
включены в модель. 

В отличие от метода юогтага, процедура БасКужата начинается с «полной» 
модели (или модель ещег), когда в нее включаются все доступные переменные. 
Процедура также содержит три шага. 

1. Решается задача регрессии с помощью полной модели, т.е. когда в ней 
присутствуют все доступные переменные. 

2. Для каждой переменной в модели вычисляется частная Е-статистика. Пред- 
почтение отдается переменной, для которой значение частной Е-статистики будет 
наименьшим (обозначим его Ри). 
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3. Производится тест значимости Р„. Если Е не является достаточно значи- 


ии 


мой, то связанная с ней переменная исключается из модели и производится возврат 
ко 2-му шагу. Если Е›„ имеет высокую значимость, то алгоритм останавливается, и 


п 
формируется отчет о текущем состоянии модели. Если это первый проход алго- 
ритма, то мы имеем полную модель и, следовательно, все доступные переменные 
являются значимыми. Если проход не является первым, то модель уменьшается на 
одну или несколько переменных. 

Эти процедуры, по сути, являются алгоритмами оптимизации на большом 
пространстве наблюдений. По этой причине отсутствует гарантия, что действи- 
тельно будет найдена наилучшая модель из всех возможных (глобальный оптимум), 
т.е. будет построена модель, обеспечивающая минимальную ошибку и максималь- 
ную значимость. Единственным способом гарантировать, что будет найдена действи- 
тельно наилучшая модель из всех возможных, является перебор всех возможных 
комбинаций входных переменных, т.е. метод глобального поиска. Метод глобаль- 
ного поиска не применим на практике (требуется перебрать 2^ комбинаций, где А — 
число потенциальных переменных). Еще одна проблема — переобучение. В машинном 
обучении принято оценивать качество модели не только по ошибке классификации 
на обучающем множестве, но и по ошибке обобщения, которая рассчитывается на 
тестовом множестве. Кроме того, для бинарных классификаторов, в том числе логи- 
стической регрессии, применяется КОС-анализ [4], в котором анализируется индекс 
АОЦС -— площадь под КОС-кривой. Эта кривая есть график зависимости чувстви- 
тельности от специфичности, рассчитываемых при различных значениях точек 
отсечения. Значение АИС, рассчитываемое на обучающей и тестовой выборках, 
определяет прогностическую силу модели. АИС = 0,5 соответствует бесполезному 
классификатору, а АИС =1 -— идеальному. Считается, что регрессионная модель, 
имеющая высокое значение площади под кривой на обучающем множестве и низкое 
на тестовом, демонстрирует эффект переобучения. Рассмотренные статистические 
процедуры /югжата и Баскулага никак не контролируют эффект переобучения, 
поскольку не используют в своей работе обращение к отдельному множеству, 
которое принято называть валидационным. Использование генетического алгоритма 
устраняет данный недостаток. 


Формализация задачи отбора генетическим алгоритмом 


Рассмотренные выше утверждения позволяют сформулировать целевую функ- 
цию для решения задачи отбора переменных в регрессионную модель: максимизация 
площади под кривой на валидационном (т.е. не участвующим в расчете коэффи- 
циентов регрессии) множестве и минимизация количества переменных. В терминах 
генетического алгоритма функция приспособленности будет выглядеть следующим 
образом [3]: 

и-п 
Ор оаяню о 1) 
где Си 5 — обучающее и валидационное множества соответственно; и — число перемен- 
ных, отобранных в модель (константа всегда включена в модель); и — общее число пере- 
менных; тс(и)- модель логистической регрессии, построенная на множестве С; 


АЧС{тс(и)) — площадь под КОС-кривой, рассчитанная на множестве 5; р — параметр. 
Первая часть функции (1) изменяется от 0,5 до 1. Выражение (и-п)/и изме- 
няется от 0 до 1. Параметр р регулирует соотношение между числом переменных в 
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модели и ее прогностической силой: чем он больше, тем меньше переменных будет в 
«лучшей» особи генетического алгоритма. Каждый ген особи и определяет, вклю- 
чать переменную в регрессионную модель или нет. 

В [3] параметр р подобран эмпирически и установлен равным 0,02. Пробные 
эксперименты показали, что такое значение не является универсальным. При низких 
значениях АОС важно не ограничивать пространство поиска и как можно меньше 
штрафовать особь за увеличение количества переменных в модели. С повышением 
АИС нужно стремиться к снижению числа переменных, т.е. увеличивать штраф за ее 
добавление. Фиксированное значение р такую гибкость не обеспечивает. 

Исходя из вышесказанного, предлагается следующая кусочно-линейная функ- 
ция для р, зависящая от АОС$ (рис. 1). 


АТС(5) 


Рисунок | — Зависимость р отАИС; 


При ее построении учитывалась градация качества классификаторов в зависи- 
мости от значения площади под кривой [4] (табл. 1). 


Таблица 1 
Интервал АОС | Качество модели 
0,9 — 1,0 Отличное 
0,8 — 0,9 Очень хорошее 
0,7 — 0,8 Хорошее 
0,6-0,7 Удовлетворительное 
0,5 — 0,6 Неудовлетворительное 


Эксперименты на искусственных наборах данных 


Целью проводимых экспериментов являлось сравнение эффективности функции 
приспособленности с фиксированным и переменным параметром р, а также оценка 


работы алгоритма при больших размерностях. 
В качестве первого набора данных использовалось искусственно сгенерированное 


множество из функциональной зависимости /(Х)=х, -х, -х, +х.хз > 0,7 , жк (= 1,..,5) 
равномерно распределен на (0;1). Объем обучающего и валидационного множества сос- 
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тавил 375 и 125 записей соответственно. К набору данных были добавлены 45 случайных 
переменных, также равномерно распределенные на (0;1). Таким образом, общая размер- 
ность пространства поиска составила 2%. 

Результаты экспериментов сведены в табл. 2. Для генетического алгоритма 
приведен результат с минимальным (п) и средним (пр) числом переменных на 100 
запусках алгоритма с постоянным параметром р, = 0,02 и изменяющимся в зави- 


симости от значения АОС (р, Е [0,02;0,8] ).Число хромосом в популяции генетичес- 


кого алгоритма 30, алгоритм останавливался при постоянстве целевой функции в течение 
20 эпох. Коэффициенты логистической регрессии рассчитывались стандартным 
методом Ньютона. В таблице также приведены результаты для процедур /югуага (Г) 
и со всеми включенными переменными (е), й — число эпох генетического алгоритма. 
Процедура Баски’ага не включила в модель ни одну переменную (расчет пошаговой 
регрессии производился в пакете 5РЗЗ 14,0). 


Таблица 2 — Результаты экспериментов для первого набора 


Модель АИС; п Пер й 
ГА (р.) 0,963 8 8,7 64 
ГА (р.) 0,963 5 17,2 79 
РА 0,95 50 _ _ 
е 0,896 15 _ _ 
Целевая функция с переменным параметром р, показала себя лучше всех: не- 


сколько раз генетический алгоритм находил решение именно с теми 5 переменными, на 
основе которых была получена выходная переменная. 

В последние годы проблема отбора признаков (англ.: /еиге з@есйоп) в машин- 
ном обучении приобрела самостоятельное значение, и для тестирования алгоритмов 
был разработан ряд искусственных наборов данных сложной природы с большим 
числом шумовых признаков (с долей от 30 до 95 % от их общего числа). Задачи с 
таким числом признаков на практике возникают нечасто, но эти наборы данных 
служат для проверки масштабируемости алгоритмов. Из (СГ Масйте Геаттия 
Керо5йогу был взят набор данных Мааеюп [5], состоящий из 500 входных пере- 
менных, из которых значимыми (на основе которых генерировалось выходное поле) 
являются только 20. Остальные переменные были искусственно добавлены в набор, 
а их значения имели распределения, близкие к истинным переменным, что услож- 
няет задачу отбора переменных. Обучающее множество Ма4деоп имеет размер 2000 
записей, валидационное -— 1000. 

В результате работы генетического алгоритма уже на 8 эпохе число пере- 
менных было сокращено до 224 с АЦИСу= 0,60 (АЦСуна полной модели тоже равен 
0,60). Поэтому всего за несколько эпох генетического алгоритма можно существенно 
снизить число переменных. Процедуре /оюгуага, к примеру, не удалось за прием- 
лемое время выдать решение (пакет ЗРЗЗ 14.0). 


Применение в задаче кредитного скоринга 


В качестве практической задачи были взяты реальные кредитные истории, содер- 
жащие информацию о качестве обслуживания долга заемщиками и их социально-эконо- 
мические параметры: возраст, образование, количество лет проживания в регионе, доход 
и тд. — всего 20 переменных. При помощи специального преобразования непрерывное 
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множество переменных, отвечающих за число просрочек, было трансформировано в 
бинарную переменную «плохой/хороший заемщик». Обучающее множество составило 
3557 записей, валидационное — 687. Доля «плохих» заемщиков составила 17%. Мно- 
жества отличались тем, что в них присутствовали шумы, аномалии и незначащие фак- 
торы. Пока что такая картина является скорее нормой в кредитных историях российских 
банков, нежели отклонением. 

Генетический алгоритм из 20 переменных составил только 2 с АИС, = 0,66. 
Полная модель имела площадь под кривой 0,6. 


Заключение 


В целом генетический алгоритм с предложенной кусочно-линейной штрафной 
функцией за включение в модель новых переменных, зависящей от площади под кривой 
на текущей эпохе, показал хорошие результаты на синтетических наборах данных и в 
задаче кредитного скоринга, лучшие, чем при использовании фиксированного параметра 
штрафа с р=0,02. Однако подход обладает рядом недостатков. Во-первых, он имеет 


высокую вычислительная сложность, которая выражается в том, что на каждой эпохе 
необходимо решать регрессионное уравнение и рассчитывать площадь под кривой. 
Поэтому для получения результатов за приемлемое время мы имеем ограничения на 
размер популяции. Во-вторых, метод Ньютона для расчета коэффициентов логистической 
регрессии иногда не сходится, и генетический алгоритм приходится запускать повторно. 
Поэтому можно сказать, что применение генетического алгоритма оправдано в задачах с 
пространством поиска, не превышающего 100 переменных. Кроме того, перспективным 
представляется сравнение подхода с другими эволюционными стратегиями, в частности, 
муравьиными алгоритмами. 
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М.Б. Пакёи 

Вдбр змнних в лопстичну регрес!ю генетичним алгоритмом 

У статт!г дослджуються ефективн! процедури в1дбору зм!нних в б1нарн! класифжкуюч! модел! на 
основ! логстично! регресй. Для цього використовуеться генетичний алгоритм, причому у функщю 
фитнеса особини параметр штрафу за включення в модель нових змйнних змнюеться залежно вд 
розрахованого значення площ! шд КОС-кривою. Проведен! експерименти на модельних наборах 
даних 1 в задач! кредитного скорингу. 


М.В. РаКйт 

Ееафиге Заесйоп т а Г.05154с Веотгез$1оп Бу Сепейс АШсогИт 

ш Фе рарег \е 415си$5 еНеснуе ргоседигез Юг а Ееайге з@есйоп рго ет ш а Ыпагу 1021$Нс геогез$1оп 
по4е1. А епейс а]еогИбт \аз изед ю Ипа Ъе5ё Ееабге сот шпаНоп$, УИ Фе зресла! Нтез$ КисНоп 
Базе оп а репаЙу рагатеёег Рог шса4те пе\и уапаез. ТЬ15 рагатеег 4ереп4$ оп КОС-сигуе шдех оп 
сиггеп еросВ. Ехрегилеп$ оп Мадеоп аа зе ап сгедИ зсогте с1аззИсайоп рго ет \уеге паде. 
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